Матрицы замен

На главную страницу семестра

1. Изучение матрицы BLOSUM62:


Предоставленная нам матрица весов аминокислотных замен была импортирована в Excel, где она была несколько изменена. Во-первых, аминокислоты в ней были отсортированы на группы, в которых замены аминокислот имеют максимальные значения ( каждая группа была покрашена в определенный цвет). Во-вторых, мы выбрали две группы, состоящие более чем из 1 аминокислоты каждая, затем вычислили средний вес замен между разными аминокислотами внутри первой группы, внутри второй группы и между группами. В результате мы получили такие значения:
  1. Cредний вес замен NDEQ: 2,7
  2. Средний вес замен KRH: 3,17
  3. Средний вес замен NDEQ-KRH: 0
Примечание: при подсчете среднего веса замен NDEQ,KRH надо было суммировать "по углу" (чтобы значения не повторялись), а потом поделить на число составляющих этого угол; при подсчете же NDEQ-KRH надо было учитывать все значения из прямоугольника пересечения.

Вывод:
Как мы видим, внутри каждой группы значения среднего веса замен значительно больше 0, так как группы были поделены как раз на основании того, что аминокислоты в них не сильно отличаются по своим свойствам, в следствие чего средний вес замен велик. Между группами результат значительно меньше (правда, на мой взгляд, он мог быть еще меньше, но группы оказались относительно близкими, например при подсчете среднего веса замен NDEQ-MILV мы бы получили результат -2,56), Это свидетельствует о том, что группы различны по своим свойствам.

Результаты находятся в файле blosum62.xls

2. Вычисление весов замен аминокислот на основе одного "блока":


На сайте базы данных BLOCKS (http://blocks.fhcrc.org/)мы провели поиск блоков, относящихся к моему белку. Поиск велся на странице "Get Blocks by keyword" по SwissProt AC моего белка. Далее мы сохранили найденный блок (строки, начиная с "ID" и по "//") в файле block.dat. Так как найдено было несколько блоков, то выбрали самый "широкий".

С помощью программы pairs_count.exe получили таблицу количеств различных пар аминокислот в данном блоке,в качестве процента идентичности, используемого при кластеризации использовали 62,программа вывела количество пар на экран, для сохранения результата в файл, использовали перенаправление в файл (pairs_count.exe block.dat 62 > block_pairs.txt).
На основании полученных данных мы рассчитали веса аминокислотных замен для всех пар аминокислот (3 пары давали бы не такую полную картину доя сравнения), результаты проделанной работы вы можете найти в файле block_pairs.xls.

Описание:

  1. Первое, что было сделано, это подсчет частот пар аминокислот на основании таблицы количеств различных пар (для этого значения каждой ячейки поделили на общее число пар - 4243479), получили Таблицу 2.
  2. Затем эти значения надо было пронивелировать (так как аминокислоты имеют собственные частоты встречаемости), что и было сделано в таблице 3. Значения частот при этом можно было взять из данного файла, но, как мне показалось, здесь следует самому рассчитать их, пользуясь самим блоком (это было сделано отдельно на листе "Частоты", где сначала мы рассчитали количество каждой аминокислоты в блоке, а затем поделиили на общее их число).
  3. Последнее, что было сделано, это подсчет собственно молекулярного веса, для этого надо было прологарифмировать полученные значения Табл.3, а в качестве основания мы выбрали такое число, чтобы одно из значений таблицы BLOSUM62 совпадало с полученными нами (выбрано было 1.2159, чтобы совпало первое значение 4).

Результат:

Результат оказался не очень впечатляющим, так как большинство значений этих двух таблиц не совпадали, это легко объяснимо тем, что рассматривая лишь один блок, мы теряем общность. На значения могло повлиять многое, включая функции белка, а так же то что подбор другого основания дал бы более точные результаты для большего количества белков.

3. Вычисление весов замен аминокислот на основе большой выборки

Аналогичным образом вычислили веса аминокислотных замен для всех пар аминокислот на основе 200 блоков из банка данных BLOCKS (расчет велся как и в прошлом задании по основанию логарифма , подобранного такиим образом, что значение его совпадало с первым значнеием таблицы BLOSUM62, то есть для А-А, и равного 1,386875). Данные с блоками нашли в файле P:\y05\Term2\Practices\Practice4\blocks_200.dat. Частоты аминокислотных остатков были взяты из предоставденного файла.

Результат:

Полученная таблицы находятся в листе Blocks_200 втом же файле. Сравнивая ее результаты с таблицей BLOSUM62, можно сказать, что ее данные гораздо ближе к правде, чем данные, полученные по итогам предыдущего задания,хотя многие значения сильно расходятся (причинами этого могут являться как выбор логарифма, так и недостаточная общность). Для того, чтобы таблицы было удобно сравнивать было проведено округление, а так же сортировка по порядку, результаты вы можете найти на листе Comparison того же файла.


©Метелев Михаил